Transfer learning refers to the transfer of knowledge or information from a relevant source domain to a target domain. However, most existing transfer learning theories and algorithms focus on IID tasks, where the source/target samples are assumed to be independent and identically distributed. Very little effort is devoted to theoretically studying the knowledge transferability on non-IID tasks, e.g., cross-network mining. To bridge the gap, in this paper, we propose rigorous generalization bounds and algorithms for cross-network transfer learning from a source graph to a target graph. The crucial idea is to characterize the cross-network knowledge transferability from the perspective of the Weisfeiler-Lehman graph isomorphism test. To this end, we propose a novel Graph Subtree Discrepancy to measure the graph distribution shift between source and target graphs. Then the generalization error bounds on cross-network transfer learning, including both cross-network node classification and link prediction tasks, can be derived in terms of the source knowledge and the Graph Subtree Discrepancy across domains. This thereby motivates us to propose a generic graph adaptive network (GRADE) to minimize the distribution shift between source and target graphs for cross-network transfer learning. Experimental results verify the effectiveness and efficiency of our GRADE framework on both cross-network node classification and cross-domain recommendation tasks.
translated by 谷歌翻译
在联合学习中,针对拜占庭式攻击的大多数现有技术用于IID设置,即客户的数据分布是独立的且分布相同的。在本文中,我们解决了标签偏度,这是一个更现实,更具挑战性的非IID设置,每个客户只能访问几类数据。在这种情况下,最先进的技术遭受选择偏见的影响,导致特定类别的性能下降;由于诚实客户梯度之间的偏差增加,他们也更容易受到拜占庭攻击的影响。为了解决这些限制,我们提出了一种名为Boba的有效的两阶段方法。从理论上讲,我们证明了Boba具有最佳顺序错误的收敛性。从经验上讲,我们在针对各种基线的广泛模型和数据集中验证了Boba的优势无偏见和鲁棒性。
translated by 谷歌翻译
图形预训练策略一直在图形挖掘社区吸引人们的注意力,因为它们在没有任何标签信息的情况下在参数化图形神经网络(GNN)方面的灵活性。关键思想在于通过预测从输入图中提取的掩蔽图信号来编码有价值的信息。为了平衡各种图形信号的重要性(例如节点,边缘,子图),现有方法主要是通过引入超参数来重新进行图形信号的重要性来进行手工设计的。然而,人类对亚最佳高参数的干预通常会注入额外的偏见,并在下游应用中降低了概括性能。本文从新的角度解决了这些局限性,即为预培训GNN提供课程。我们提出了一个名为Mentorgnn的端到端模型,该模型旨在监督具有不同结构和不同特征空间的图表的GNN的预训练过程。为了理解不同粒度的异质图信号,我们提出了一种课程学习范式,该课程自动重新贴出图形信号,以确保对目标域进行良好的概括。此外,我们通过在预先训练的GNN的概括误差上得出自然且可解释的上限,从而对关系数据(即图形)的域自适应问题(即图形)发出了新的启示。有关大量真实图的广泛实验验证并验证了Mentorgnn的性能。
translated by 谷歌翻译
转移学习是指知识或信息从相关源任务转移到目标任务。但是,大多数现有作品都假设两个任务都是从固定任务分布中取样的,从而导致在实际场景中从非平稳任务分布中绘制的动态任务的次优性能。为了弥合这一差距,在本文中,我们研究了一种动态任务的更现实和挑战性的转移学习设置,即源和目标任务随着时间的推移不断发展。从理论上讲,我们表明,动态目标任务上的预期错误可以在跨任务之间的源知识和连续分配差异方面紧密界定。这个结果激发了我们提出一个通用的元学习框架L2E,以建模动态任务上的知识传递性。它围绕一个任务引导的元学习问题,其中包括一组元对任务,基于我们能够学习先前的模型初始化,以快速适应最新的目标任务。 L2E享有以下属性:(1)跨动态任务的有效知识传递性; (2)快速适应新目标任务; (3)缓解历史目标任务的灾难性遗忘; (4)合并任何现有的静态转移学习算法的灵活性。各种图像数据集的广泛实验证明了所提出的L2E框架的有效性。
translated by 谷歌翻译
由国土安全企业与安全相关的应用程序直接激励,我们着重于对图形数据的隐私保护分析,该分析提供了代表丰富属性和关系的关键能力。特别是,我们讨论了两个方向,即保护隐私图和联合图形学习,这可以共同使每个拥有私人图形数据的多个政党之间的协作。对于每个方向,我们都确定“快速获胜”和“硬问题”。最后,我们演示了一个可以促进模型解释,解释和可视化的用户界面。我们认为,在这些方向上开发的技术将大大提高国土安全企业的能力,以应对和减轻各种安全风险。
translated by 谷歌翻译
随着机器学习在高风险决策问题中的不断应用,对某些社会群体的人们的潜在算法偏见对个人和我们的整个社会造成了负面影响。在现实世界中,许多此类问题涉及积极和未标记的数据,例如医学诊断,刑事风险评估和推荐系统。例如,在医学诊断中,仅记录诊断性疾病(阳性),而其他疾病则不会(未标记)。尽管在(半)监督和无监督的环境中进行了大量的现有工作,但公平问题在上述正面和未标记的学习(PUL)上下文中基本上却大大不足。在本文中,为了减轻这种张力,我们提出了一种名为Fairpul的公平意识的PUL方法。特别是,对于来自两个人群的个人的二元分类,我们旨在在两个人群中达到相似的真实正利率和假期的误报。基于对PUL的最佳公平分类器的分析,我们设计了模型不合时宜的后处理框架,利用了积极的示例和未标记的示例。从分类错误和公平度量标准方面,我们的框架在统计上是一致的。关于合成和现实世界数据集的实验表明,我们的框架在PUL和公平分类方面的表现都优于最先进。
translated by 谷歌翻译
在推荐系统中,一个普遍的挑战是冷门问题,在系统中,相互作用非常有限。为了应对这一挑战,最近,许多作品将元优化的想法介绍到建议方案中,即学习仅通过过去的几个交互项目来学习用户偏好。核心想法是为所有用户学习全局共享的元启动参数,并分别为每个用户迅速调整其本地参数。他们的目的是在各种用户的偏好学习中得出一般知识,以便通过博学的先验和少量培训数据迅速适应未来的新用户。但是,以前的作品表明,推荐系统通常容易受到偏见和不公平的影响。尽管元学习成功地通过冷启动提高了推荐性能,但公平性问题在很大程度上被忽略了。在本文中,我们提出了一个名为Clover的全面的公平元学习框架,以确保元学习的推荐模型的公平性。我们系统地研究了三种公平性 - 个人公平,反事实公平和推荐系统中的群体公平,并建议通过多任务对抗学习方案满足所有三种类型。我们的框架提供了一种通用的培训范式,适用于不同的元学习推荐系统。我们证明了三叶草对三个现实世界数据集的代表性元学习用户偏好估计器的有效性。经验结果表明,三叶草可以实现全面的公平性,而不会恶化整体的冷淡建议性能。
translated by 谷歌翻译
上下文匪徒旨在根据其上下文信息在一组最佳奖励的武器中识别最佳奖励。由于武器通常表现出群体行为和群体之间存在相互影响的事实,我们引入了一个新模型,ARM组图(AGG),节点代表武器组和加权边缘组成组之间的相关性。为了利用丰富的信息,我们提出了一种强盗算法,即ag-ucb,在该算法中,神经网络旨在估计奖励,我们建议利用图形神经网络(GNN)来学习具有相关性的ARM组的表示。为了解决匪徒中的剥削 - 探索困境,我们得出了建立在神经网络(剥削)探索的新的上置信度结合(UCB)。此外,我们证明了Agg-UCB可以实现与过度参数化的神经网络结合的近乎最佳的遗憾,并提供GNN的收敛分析,并具有完全连接的层,这可能具有独立的利益。最后,我们对多个公共数据集的最新基准进行了广泛的实验,显示了拟议算法的有效性。
translated by 谷歌翻译
虚假信息是指故意传播的虚假信息以影响公众,而虚假信息对社会的负面影响可以在许多问题(例如政治议程和操纵金融市场)中观察到。在本文中,我们确定了从多个方面的自动虚假信息检测相关的普遍挑战和进步,并提出了一个称为迪斯科的全面和可解释的虚假发现检测框架。它利用了虚假信息的异质性,并解决了预测的不透明性。然后,我们以令人满意的检测准确性和解释为现实世界中的假新闻检测任务提供了迪斯科舞厅的演示。迪斯科的演示视频和源代码现已公开可用。我们希望我们的演示可以为解决整体的识别,理解和解释性的局限性铺平道路。
translated by 谷歌翻译
浅GNN倾向于与具有缺失功能的大型图形或图形相关性能。因此,有必要增加GNN的深度(即,层数),以捕获对输入数据的更多潜在知识。另一方面,包括GNN中的更多层通常会降低其性能,例如消失的梯度和过度平滑。现有的方法(例如,配对和DropEdge)主要集中于解决过度厚度,但它们遭受了一些缺点,例如需要难以提高知识或进行大型培训随机性。此外,这些方法只是将重新连接到解决消失的梯度。他们忽略了一个重要的事实:与从遥远的邻居中收集的信息相比,与从1跳和2跳的邻居收集的信息相比,从遥远的邻居收集的信息变得占主导地位,从而导致严重的性能退化,从而使其占主导地位。在本文中,我们首先深入研究了Resnet的架构,并分析了为什么Resnet最不适合更深的GNN。然后,我们提出了一种新的残留体系结构,以减轻重新系统造成的负面影响。为了解决这些现有方法的缺点,我们介绍了名为TGCL的拓扑引导的图形对比损失。它利用节点拓扑信息,并通过对比度学习正则化将连接的节点对靠近,以获得歧视性节点表示。将新的残留体系结构与TGCL相结合,提出了一个名为更深的GNNS的端到端框架。对现实世界数据集的广泛实验证明了与最先进的基线相比,更深型GXX的有效性和效率。
translated by 谷歌翻译